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基于 代价 敏感 和 近似 分 类 质量 的 决策 粗 燃 集 属性 约 简 研究 ~ 
陈 婉 清 ， 秦 亮 上 时" 


(广西 大 学 计算 机 与 电子 信息 学 院 ， 南 宁 530004) 


摘 ， 要 :针对 决策 粗糙 集 属性 约 简 在 引入 代价 后 分 类 精度 不 高 的 问题 , 对 其 中 代价 敏感 与 分 类 精度 的 平衡 进行 了 研究 。 
将 分 类 总 代价 和 近似 分 类 质量 作为 属性 约 简 过 程 中 的 约束 条 件 ， 结 合 模拟 退火 方法 ， 提 出 了 一 个 基于 代价 敏感 和 近似 
分 类 质量 的 决策 粗糙 集 属性 约 简 (ARACOQ) 算 法 。 利 用 UCI 数据 集 对 算法 进行 了 模拟 实验 , 实验 结果 验证 了 ARACOQ 
算法 的 有 效 性 ， 该 算法 能 够 在 可 承受 代价 范围 内 找到 一 个 分 类 精度 最 高 的 属性 约 简 集 。 
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Study on DTRS attribute reduction constrained by cost-sensitive and classification quality 


Chen Wanqing, Qin Liangxii 
(School of Computer, Electronics & Information Guangxi University, Nanning 530004, China) 


Abstract: Aiming at the low precision problem while the cost is introduced into attribute reduction of decision -theoretic rough 
set, it is studied the balance between the total cost and the precision in classification. The total cost of the classification and the 
approximate classification quality are used as the constrained criteria in the attribute reduction procedure, combined with 
simulated annealing method, it is proposed a DTRS attribute reduction algorithm constrained by cost-sensitive and classification 
quality (hereinafter referred as ARACOQ) . The simulation experiments are catried out by using UCI data set, the results verify 
the effectiveness of the ARACOQ algorithm, it can find an attribute reduction set with the highest classification precision within 


the affordable cost range. 
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于 最 小 决策 代价 的 属性 约 简 方 法 09;，Zhang 等 人 在 决策 粗糙 引 


人 下 


CS 0 引言 
一 模型 下 ， 提 出 了 不 完备 系统 的 最 小 代价 属性 约 简 方法 0251;， Song 
粗糙 集 模型 目 是 由 Pawlak 于 1982 年 提出 的 一 种 计算 工 等 人 将 决策 粗粮 集 与 模糊 集结 合 ， 提 出 了 两 种 属性 约 简 方法 : 


外， 主要 用 于 分 析 和 处 理 不 精确 性 和 模糊 性 的 数据 。 经 典 粗 烽 。 全 局 约 简 和 局 部 约 简 ， 全 局 约 简 能 保持 所 有 决策 类 的 代价 不 变 
集 理论 是 基于 严格 的 代数 包含 关系 建立 的 ， 但 是 在 实际 应 用 中 ”或 减少 ,而 局 部 约 简 则 能 保持 单个 决策 类 的 代价 不 变 或 减少 RI。 
往往 难以 满足 精确 的 代数 包含 ， 因 此 导致 经 典 粗糙 集 在 处 理 实 通常 情况 下 ,不 同 的 测试 属性 集会 带 来 不 一 样 的 分 类 结果 。 
际 分 类 问题 时 缺乏 容错 能 力 。 基 于 此 ，Yao 等 人 将 贝 叶 斯 风险 ”在 一 定 的 范围 内 ， 测 试 属性 集中 属性 个 数 越 多 ， 错 误 分 类 的 结 
相关 理论 与 粗糙 集 相 结合 ， 提 出 了 有 具有 容错 能 力 的 决策 粗糙 集 。” 果 越 少 , 则 误 分 类 代价 越 小 , 分 类 精度 越 高 四。 然而 在 日 常生 活 
模型 B]。 中 ， 数 据 的 获取 需要 花费 一 定 的 经 济 或 时 间 成 本 ， 即 测试 代价 
随 着 决策 粗糙 集 研究 的 逐步 深入 ， 其 属性 约 简 问题 得 到 了 中 1。 例如, 在 医疗 诊断 中 , 各 种 医疗 检测 都 需要 花费 一 定 的 费用 
学 者 的 广泛 关注 。 属 性 约 简 的 目的 是 在 保证 信息 系统 某 些 关 键 ”加 。 随 着 测试 属性 个 数 的 增多 , 在 误 分 类 代价 减少 的 同时 , 也 会 
特征 值 不 变 的 情况 下 ， 将 元 余 的 属性 删 减 。 决 策 粗 糙 集 中 决策 。 使 测试 代价 增加 。 因 此 ， 在 实际 问题 中 ， 需 将 测试 代价 和 误 分 
语义 的 引入 ， 导 致 其 属性 约 简 不 再 具有 单调 性 。 因 此 ，Yao 等 ” 类 代价 同时 考虑 ,并 找到 兼顾 两 者 的 一 个 平衡 点 。 基于 此 , Min 
人 首先 提出 了 决策 粗 烽 集 的 属性 约 简 问题 ， 并 提出 了 一 种 基于 ”等 中 在 粗糙 集 属性 约 简 问题 中 ， 率 先 引 入 测试 代价 作为 约束 条 
性 a- 正 域 重要 度 的 属性 约 简 外 方法 ; 贾 修一 等 人 将 决策 风险 ” ” 件 。 李 华 雄 等 人 将 代价 敏感 引入 决策 粗 烽 集 ， 提 出 了 代价 敏感 
最 小 化 作为 最 优化 目标 ， 提 出 了 一 种 基于 决策 风险 最 小 化 的 属 的 决策 风险 最 小 化 属性 约 简 方 法 四。 刘 候 等 人 采用 模拟 退火 算 
性 约 简 E 方 法 ，Bi 等 人 从 代数 理论 和 信息 论 两 个 方面 提出 了 基 去 结合 传统 决策 粗 烽 集 正 域 约 简 算法 ， 搜 索 测试 代价 总 和 最 小 
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的 正 域 约 简 属性 集 外 ， 取 得 了 较 好 的 结果 。 

在 以 上 研究 中 ， 一 些 没 有 考虑 代价 ， 得 到 的 是 满足 某 些 条 
件 (如 基于 属性 “- 正 域 重 要 度 的 属性 约 简 向 ) 的 属性 子 集 ， 而 
一 些 考虑 了 代价 ， 包 括 误 分 类 代价 、 测 试 代价 或 包含 两 者 的 总 
代价 ， 得 到 的 是 具有 最 小 代价 的 属性 子 集 ， 但 此 类 属性 集 的 分 
类 精度 往往 不 高 。 在 实际 问题 中 ， 分 类 精度 应 该 是 首先 要 考虑 
的 问题 ， 如 在 诊断 重大 疾病 时 ， 诊 断 精确 性 的 地 位 是 远 远 高 于 
测试 代价 的 。 因 此 ， 在 决策 粗糙 集 属性 约 简 的 问题 上 ， 分 类 精 
度 和 分 类 代价 应 该 综合 考虑 ,应 在 可 承受 的 分 类 总 代价 范围 内 ， 
尽 可 能 提高 分 类 精度 。 
在 粗粮 集 理论 中 ， 近 似 分 类 质量 表明 了 应 用 知识 R 能 确切 
地 划 入 已 知 分 类 的 对 象 的 百分比 中 。 近 年 来 ， 基 于 近似 分 类 质 
量 的 属性 约 简 算法 也 不 断 提出 1。 在 近似 分 类 质量 不 变 的 前 


UL 
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提 下 求 约 简 集 ， 可 以 保证 约 简 集 的 分 类 决策 能 力 不 会 被 减弱 09。 


因此 ， 本 文 将 近似 质量 作为 属性 约 简 的 约束 条 件 之 一 ， 以 此 保 
证 分 类 决策 能 力 不 会 被 大 幅度 的 削减 。 

本 文 在 属性 约 简 问题 中 将 分 类 总 代价 和 近似 分 类 质量 作为 
属性 约 简 的 迭代 准则 ， 在 可 承受 的 分 类 总 代价 的 范围 内 ， 寻 找 
到 分 类 决策 能 力 高 的 测试 属性 子 集 。 


1 ”决策 粗糙 集 的 基本 概念 


设 Q=fwiwzsw3.ws 表示 s 个 状态 的 集合 ; 


A={aqz,aza3,.…,a 忆 表示 m 个 可 能 的 决策 ;x 表示 为 论 域 中 的 某 对 


象 ; 表示 为 对 象 x 的 属性 特征 描述 ，Pow; | 习 表示 在 站 描述 下 
的 对 象 x 具有 wi 状态 的 条 件 概 率 ;4(ailwy 表 示 在 wi 状态 下 的 作 


出 qi 决策 的 风险 代价 ， 其 中 4 通常 是 
集 模型 中 ， 通 常 考虑 3 种 分 类 决策 ， 即 正 域 (属于 wi 类 ) 、 负 
域 (不 属于 wj 类 ) 和 边界 域 (待定 结果 ) 。 因 此 ， 对 于 具有 
雪 述 的 对 象 *， 在 采取 ai; 决策 情况 下 ， 可 能 带 来 的 决策 风险 期 


人 得 
经 验 得 出 


人 得 出 。 在 决策 粗粮 


Ra |= Xa | w)POw, | 
/=l 


为 了 叙述 方便 ， 本 文 只 考虑 包含 两 种 互补 的 状态 的 集合 2 
={ 了 ~ 有如。 设 决 策 集 4={fap,amaB， 其 中 ap，an，a8 分 别 表示 决 
策 为 正 域 POS( 四 、 负 域 WEG( 站 和 边界 域 BND(X)。 当 对 象 xE 
他 时 ， 对 象 划分 到 相应 区 域 POS(2)、NEG( 加 和 BND(9 的 损失 
函数 为 41pp、4Nwp 和 4sp。 反 之 ， 当 对 象 zeX 时 ， 对 象 划分 到 
相应 区 域 POS( 罗 、NEG( 如 和 BND( 如 的 损失 函数 为 4py、 4ww 
和 4a。 在 粗糙 集 理论 中 , 等 价 类 /xJx 表 示 具 有 完全 相同 特征 描 
述 的 对 象 x。 因 此 ， 本 文 将 具有 特征 描述 的 对 象 x 用 等 价 类 
[xjR 来 表示 。 因 此 ， 可 以 得 到 3 种 决策 的 期 望 风险 为 

Rlap |[x]r) = AppP(X |[x]R) + ApwP(~ X |[x]r) 


Raxv |[x]r)= Mp P(X |[x]r)+ hwP(~ X |[x]r) 


R(as |[x]r)= AspP(X |[x]r)+ AswP(~ X |[x]r) 
对 于 决策 代价 函数 值 的 大 小 ， 显 然 有 如 下 的 关系 : 


入 pP< 入 BP< 和 NP， 和 NNN<NBN<NPN 


陈 婉 清 ， 


考虑 到 了 


三 种 分 类 的 


等 : 


基于 代价 敏感 和 近似 分 类 质量 的 决策 粗糙 


E 确 分 类 的 风险 为 0, 即 4pp=4Nwv=0， 


期 望 风 险 可 以 表示 为 


R(ap |[x]x) Ss ApyP(~ XxX |[x]x) 
R(avl[x]x) MpP(X |[x]x) 


选择 xeBND(X)。 


2 ”模拟 退火 算法 概述 


模拟 退火 算法 是 
机 优化 算法 。 


过 程 ， 从 而 求解 优化 问题 的 最 小 值 。 
缓慢 ， 但 模拟 退火 算法 最 终 一 定 能 达到 全 局 最 优 ” 

从 设 定 的 初始 温度 To 及 初始 状态 x(0) 帮 
随机 地 从 可 行 解 中 ， 持 续 进 行 “ 产 生 3 
帮 代 过 程 ， 从 而 产 4 


xX(i+D) 只 依赖 于 


有 无关， 


法 实际 上 是 通过 马尔 可 天 


大 


etropoli 


s 等 人 于 1953 重 


RCas |[x]r) = AspP(X |[x]r)+ AswP(~ X |[x]x) 
根据 贝 叶 斯 最 小 风险 决策 原则 ， 可 以 得 到 决策 规则 如 下 : 
如 果 R(ap|[x]r)<R(anl[x]r) 并 日 
选择 xEPOS(X)。 
如 果 R(aN|[Xx]R)<R(ar|[x]r) 并 且 
选择 xENEG(X)。 
如 果 R(as|[x]R)<R(ar|[x]r) 


| R(az|l[x]R)<R(asl[xjg)， 那 么 


| R(aN|[xJR)<R(as|[x]r), 那么 


且 R(ap|[x]R)<R(aNn|[x]r), 那么 


FE 提出 的 一 种 随 


该 算法 通过 模拟 热力 学 中 物体 从 高 温 开 始 ， 缓 慢 
地 降温 (这 个 过 程 被 称 为 退火 )， 最 终 在 某 一 温度 达到 热平衡 的 


已 经 证 明 ， 虽 然 温 度 下 降 


F 始 ,模拟 退火 算法 
所 解 -判断 -接受 /舍弃 ”的 
一 个 状态 序列 x(0),x(7),.…,x(i)， 且 新 状态 
前 一 个 状态 x@)， 与 前 面 的 状态 x(0),x(7),…,x(i- 
此 该 状态 序列 构成 一 个 马尔 可 夫 链 。 
K 链 的 演化 过 程 ， 逐 步 逼 近 问 题 的 最 优 


13] 
o 


而 模拟 退火 算 


解 。 到 达 停 止 准则 后 ， 使 用 衰减 函数 减少 控制 参数 的 值 ， 重 复 


以 上 步骤 ， 当 控制 参数 到 达 终 止 时 ， 即 得 到 最 优 解 。 


3 。” 代价 敏感 与 属性 约 简 


3.1 


三 


讽 


测试 代价 
假设 各 个 样本 中 的 同一 属性 值 的 测试 代价 相同 ， 
属性 集 3 上 计算 的 样本 x 的 测试 代价 等 于 B 中 每 个 属性 ci EB 
试 代价 的 总 和 ， 测 试 代价 设 为 一 个 非 负 实 数 。 


算 测 试 代价 函数 六 


I 


因 


Test cost(x, B) = 了 TC(c;) 


其 中 :TC(ley) 为 B 中 单个 属性 集 的 


3.2 


集 和 决策 


等 价 关 系 Rs 和 样本 xs 在 属性 


根据 决策 粗糙 集 的 决策 规 贝 


误 分 类 代价 
设 决 策 表 信息 系统 S=(U,4t=BOringe UD,VAD， 其 中 
CU=Aroxz2 xz 为 非 空子 集 论 域 ，BOripge 和 DD 分别 为 条 件 属性 
性 集 


= 
娃 
疝 


， 给 定 条 件 属 | 


测试 代价 。 


E 子 集 Bc BOringe， 


Rs ={(x,y) eUxU 


VaeB,l,(x)=1,(y)} 


[xls={yeU|(x,y) e Rs} 


分 类 代价 值 ， 计 算 形 式 如 下 : 


集 B 上 的 等 价 类 为 ”: 


则 在 测试 


= 


此 ， 可 得 计 


由 B 确定 的 


1 可 以 计算 出 不 同属 性 子 集 的 误 
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当 对 象 x 被 划分 到 正 域 时 ， 
Errorcost(x, B)= ApyP(~ X |[x]s) 
当 对 象 x 被 划分 到 负 域 时 ， 
Error cost(x, B)= NpP(X |[x]s) 

当 对 象 x 被 划分 到 边界 域 时 ， 

Error cost(x, B)= AppP(X |[x]s)+ AspvP(~ X |[x]s) 

3.3 代价 敏感 

设 Sumcost(%,B) 为 样本 x 在 测试 属性 集 8 上 的 分 类 总 代价 ， 
分 类 总 代价 就 是 误差 代价 与 测试 代价 之 和 ， 即 

Sumcost(x, B)= Error cost(x, B)+Testcost(x, B) 

3.4 近似 分 类 质量 

设 y(x,B) 为 样本 x 在 测试 属性 集 
则 有 


的 近似 分 类 质量 59， 


TH 
es] 


| Pos (D)| 
2 
3.5 ”属性 约 简 
文献 [6] 中 采用 启发 式 算法 , 每 次 均 将 
价 的 属性 加 入 最 优 属性 集中 。 通 常情 况 下 ， 同 一 样本 下 获得 的 
最 优 属性 集 是 一 致 的 。 然 而 分 类 总 代价 最 小 的 属性 ， 分 类 精确 
度 可 能 不 高 。 因 此 ， 文 献 [6] 中 给 出 的 算法 是 有 局 限 性 的 。 本 文 
将 模拟 退火 方法 0 引入 决策 粗糙 集 的 属性 约 简 问 题 ， 综 合 考虑 
分 类 总 代价 和 分 类 精度 之 间 的 关系 ， 即 在 可 承受 的 分 类 总 代价 
的 范围 内 (本 文 将 全 属性 集 分 类 总 代价 的 10% 作 为 最 大 可 承受 
的 分 类 总 代价 ) ， 用 近似 分 类 质量 最 大 限度 的 保证 分 类 决策 能 
力 的 提高 。 其 中 ， 最 大 可 承受 分 类 代价 为 
AffordSC = Sumcost(x, BOringe) x10% 
使 用 模拟 退火 算法 随机 找到 一 组 属性 子 集 ， 并 判断 该 属性 
子 集 是 否 满足 以 下 条 件 ， 即 
0< Sumcosi(x, B) < Max(AffordSC) 


有 最 小 的 分 类 总 代 


&&isMax(y(x, B)) 
其 中 :x 为 样本 对 象 ，Sumcost(x,B) 为 在 属性 子 集 B 下 对 象 x 的 
分 类 总 代价 , isMax( YY(x,B) 判 断 属性 子 集 B 的 近似 分 类 质量 是 
否 为 已 找到 的 属性 子 集中 最 高 的 。 


当 满 足 上 述 条 件 ， 则 该 属性 子 集 为 最 优 属性 集 。 由 此 给 
如 下 算法 。 
算法 1 基于 代价 敏感 的 决策 粗糙 集 属性 约 简 算法 (以 下 


简称 为 ARACOQ 算法 ) 

输入 : 一 个 决策 表 S=(U,At=BOringe UD,V,f)， 待 分 类 样本 
x， 样 本 的 全 属性 集 BOringe， 误 差 代 价 和 矩阵 ， 测 试 代价 矩阵 ， 
模拟 退火 算法 的 参数 设置 如 下 : 马尔 可 夫 链 的 迭代 次 数 K=1000， 
马尔 可 夫 链 长 度 MarkovLength=1000， 衰 减 子 
DecayScale=0.95， 步 长 StepFactor=0.02， 初 始 温 度 t=30， 容 差 
tmin=10-8。 

输出 : 最 优 属性 子 集 BestB， 分 类 总 代价 BestSC， 近 似 分 
类 质量 BestQualip; (初始 值 为 0) 。 

a) 计算 全 属性 分 类 总 代价 Sumcost(x,BOringe) 和 可 承受 分 
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类 总 代价 AffordSC。 

b) 初始 化 tmin，t，B=BOringe，Num=0。 

0o) 通 过 随机 添加 、 蔡 换 、 删 除 属性 的 方式 ， 由 属性 集 B 产 
生 新 的 属性 子 集 B+， 那 么 B=B*，Num=Num+1。 

d) 计算 属性 子 集 8 的 分 类 总 代价 和 近似 分 类 质量 。 若 
Sumcost(x, B) < AffordSC && r(x,B) > BestQuality ， 那 么 BestB=B,， 
BestSC=Sumcost(x,B), BestQuality=y(%,B)。 
判断 当 wi>twmn 并 且 结 果 不 收敛 时 ， 返 回 0o), 同 时 
t=DecayScale Xt。 

人 车 Num<5， 返 回 c) 。 

多 输出 BestB 即 为 分 类 总 代价 在 可 承受 范围 内 分 类 精确 度 
最 高 的 最 优 测试 属性 集 。 

ARACOQ 算法 结束 条 件 有 两 个 , 其 一 是 初始 温度 上 衰减 到 
规定 的 值 ， 其 二 是 若 在 马尔 可 夫 链 次 迭代 过 程 中 ， 实 验 结果 
没有 发 生 任 何 改变 ， 即 结果 收 化 。 若 结果 一 直 未 收 化 ， 当 温度 
t 也 会 衰减 到 规定 的 值 时 结束 该 算法 ， 并 且 已 有 相关 论文 证 明 
模拟 退火 算法 是 可 收敛 的 ， 只 不 过 收敛 速度 较 慢 019。 

在 运算 时 间 上 , 启发 式 算法 较 ARACOQ 算法 有 明显 优势 ， 
但 是 在 分 类 精确 度 上 ,ARACOQ 算法 较 启 发 式 算法 具有 绝对 优 
势 。 并 且 在 实际 问题 中 ， 在 一 定 的 分 类 代价 范围 内 ， 分 类 精确 
度 的 提高 是 非常 重要 的 。 


4 ”实验 结果 及 分 析 


© 


Mot 


为 了 验证 ARACOQ 算法 的 有 效 性 ， 本 文 使 用 UCI 的 数据 
集 对 算法 进行 了 模拟 实验 ， 并 与 李 华 雄 提出 的 决策 粗糙 集 代价 
敏感 属性 选择 及 分 类 算法 进行 了 对 比分 析 。 
模拟 退火 算法 属于 随机 算法 ， 每 次 运行 得 到 的 结果 可 能 不 
一 致 , 因此 在 每 个 数据 集 上 ,本文 均 做 10 次 实验 , 取得 的 平均 
值 作为 运行 结果 。 
实验 的 机 器 为 mnteltw XeonG 的 3.50 GHz CPU、 内 存 为 8 
GB, 64 位 的 Windows10 操作 系统 , 算法 在 MATLAB 平台 上 实 
现 。 本 实验 使 用 的 数据 集 均 来 自 UCI 数据 库 ， 这 三 组 数据 集 分 
别 为 Car、WPBC (breast-cancer-Wisconsin (diagnostic) ) 和 
Spambase。 针 对 数据 集中 少量 数据 缺失 的 情况 ， 使 用 最 频 值 填 
充 法 进行 补 齐 。 删 除 WPBC 数据 集中 的 ID 列 ， 并 对 数据 进行 
一 化 和 离散 化 。 在 数据 集 Car 中 ， 将 类 别 数 调整 为 2 个 ， 即 
将 “good” 和 “vgood” 均 归于 “acc” 类 别 中 。 实 验 数据 进行 预 
处 理 后 的 基本 信息 如 表 1 所 示 。 
表 1 实验 数据 基本 信息 


一 


名 称 类 别 数 ”属性 个 数 ”处 理 后 属性 数 ”样本 数 
Car 之 6 6 1728 
WPBC 2 34 33 198 
Spambase 2 57 57 4601 


在 实验 中 ,假定 误 分 类 代价 满足 hpp<hsp<AwP 和 ANn<hBn<hpy， 
4pPp=4Nv=0。 为 了 实验 具有 对 比 性 ， 对 第 一 组 数据 集 (Car) 和 
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后 两 组 数据 集 (WPBC 和 Spambase) 采用 不 同 的 误 分 类 代价 算 
阵 ， 如 表 2 和 3 所 示 。 
表 2 Car 的 误 分 类 代价 矩阵 


名 称 POS BND NEG 
X 0 2 8 
~X 9 2 0 


表 3 WPBC 和 Spambase 的 误 分 类 代价 矩阵 


名 称 POS BND NEG 
和 0 8 20 
一 15 7 0 


在 UCI 数据 中 ， 并 未 给 出 测试 代价 。 因 此 ， 本 文 假定 每 个 
数据 集中 的 属性 测试 代价 服从 正 态 分 布 Nlwo)。 设 Car 和 
Spambase 属性 的 测试 代价 服从 N(0.2,0.1)，WPBC 属性 的 测试 
代价 服从 N(0.02,0.01)， 在 Matlab 中 使 用 正 态 随机 函数 为 各 个 
数据 集 的 属性 生成 测试 代价 。 

于 本 文 将 分 类 近似 质量 作为 其 中 的 一 个 指标 ， 因 此 在 选 
取 训 练 样本 时 ， 需 要 截取 该 样本 数据 每 一 个 决策 类 别 均 覆 盖 的 
数据 作为 训练 样本 。 在 car 集 上 ， 选 取 第 1028 至 1227 条 数据 
作为 训练 样本 。 在 Spambase 集 上 ， 选 取 第 1714 至 1913 条 数 
据 作为 训练 样本 。 在 WPBC 数据 集 上 , 选取 前 100 条 数据 作为 
训练 样本 。 其 余 的 样本 均 为 测试 样本 四 。 在 三 个 数据 集 上 , 分 别 
用 ARACOQ 算法 和 李 华 雄 的 启发 式 算法 计算 得 到 
WEKA 在 测试 样本 上 验证 , 最 优 测试 属性 集 


储 


壮 


没 
字 
斑 


属性 集 , 然后 使 用 
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的 分 类 精度 。 本 文 的 实验 结果 将 通过 代价 约 简 率 、 分 类 精度 和 
属性 约 简 率 来 做 比较 向 。 其 中 ， 


全 属性 


且 


代价 -最 优 属性 总 代价 
全 属性 总 代价 


代价 约 简 率 = 


Ee 


全 属性 数 -最 优 属性 集 大 小 
凡 性 约 简 率 = 

从 表 4 中 可 以 发 现 ， 两 种 算法 的 代价 约 简 率 均 达到 了 90% 
以 上 .ARACOQ 算法 和 启发 式 的 代价 约 简 率 在 同一 个 数据 集 上 
相差 不 会 超过 7%。 因 此 , 证 明了 ARACOQ 算法 能 够 大 大 降低 
分 类 总 代价 总 和 。 在 实际 问题 中 ， 能 够 很 好 地 解决 因 代 价 过 高 
而 耽误 病情 等 问题 。 

表 5 展示 了 全 属性 集 、 启 发 式 算法 得 到 的 最 优 属 性 集 和 
ARACOQ 算法 得 到 的 最 优 属性 集 ， 使 用 WEKA 对 测试 样本 外 
进行 风险 最 小 化 的 决策 粗糙 集 决策 分 类 得 到 的 分 类 平均 精度 。 
综合 分 析 表 4 和 5 的 数据 结果 可 以 发 现 ， 一 味 的 追求 总 
价 最 小 化 ， 会 导致 分 类 精度 大 幅度 地 下 降 ， 因 此 需要 将 两 者 
合 考虑 。 与 启发 式 算 法 相 比 ， 在 同一 属性 集 上 ， 当 分 类 总 代 
不 超过 最 小 代价 的 7% 时, 分 类 精度 得 到 了 大 幅度 的 提高 。 
在 Car 和 Spambase 这 些 测试 样本 数量 很 多 的 数据 集 上 ， 效 
更 为 显著 。 证 明了 ARACOQ 算法 能 够 在 可 承受 的 分 类 总 代 
的 范围 内 ， 能 够 大 幅度 地 提高 了 分 类 精度 。 与 全 属性 集 相 比 ， 
ARACOQ 算法 在 代价 约 简 率 均 达到 90% 的 同时 ， 分 类 精度 
维持 在 了 10% 以 内 的 下 降 范围 。 在 实际 问题 中 需要 综合 考虑 
价 和 分 类 精度 之 间 的 关系 ， 因 此 ARACOQ 算法 的 思想 和 实验 
结果 更 加 符合 实际 。 
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4 平均 总 分 类 代价 


全 属性 总 代 ”启发 式 算法 总 代价 ”ARACOQ 算法 总 代价 ”启发 式 算法 代价 约 简 率 ARACOQ 算法 代价 约 简 率 
价 (平均 ) (平均 ) (平均 ) /% (平均 ) /% 
Car 1904.10 2.45 33.17 99.87 98.26 
WPBC 66.54 2.06 4.36 96.90 93.45 
Spambase 23648.00 6.22 1567.33 99.97 93.37 
属性 集 ”全 属性 分 类 精度 /% 启发 式 算法 最 优 属性 集 分 类 精度 /% ARACOQ 算法 最 优 属性 集 分 类 精度 (平均 )/% 
Car 93.20 50.70 84.37 
WPBC 72.00 66.00 70.67 
Spambase 84.80 67.30 76.64 
6 ”属性 平均 约 简 率 
处 理 后 全 。 启发 式 算法 约 简 属 性 集 ”ARACOQ 算法 约 简 属性 集 启发 式 算法 约 简 率 ARACOQ 算法 约 简 率 
信人 全 (平均 属性 个 数 ) (平均 属性 个 数 ) (平均 ) (%) (平均 ) 〈%) 
Car 6 1 2°7 83.33 55.00 
WPBC 33 3 2.6 90.91 92.12 
Spambase 57 1 19.7 98.25 65.44 


表 6 可 以 看 出 ,在 全 属性 集 个 数 较 少 的 情况 下 , ARACOQ 


算法 和 启发 式 算法 的 约 简 率 相差 较 多 。 在 全 属性 集 数 量 个 数 适 
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中 的 情况 下 , ARACOQ 自 
简 率 比 启发 式 算 法 高 。 在 全 属性 集 个 数 较 多 外 
比 约 简 率 达到 了 65.44%。 
力 ,能够 大 幅度 减少 属性 


ARACOQ 


ARACOQ 算法 具有 很 强 的 属性 约 简 能 


语法 在 大 届 


度 提 高 分 类 精度 的 同时 , 约 


ChinaXiv 合 作 期 十 
陈 培 清 ， ER nV 人 人 信 其 村 、 


ARACOQ 算法 得 到 的 最 优 属性 集 属性 个 数 和 分 类 总 代价 均 大 


算法 与 全 属性 集 相 


个 数 ， 获 得 最 优 测试 属性 集 。 
图 1~3 分 别 用 图 形 的 方式 展示 了 归 


(由 于 数量 级 不 同 ， 


将 三 组 数据 使 用 同一 个 数据 量 


类 的 平均 精度 和 归 一 化 属性 集 个 数 。 


综合 分 析 图 1 和 图 2 的 图 表 信息 可 以 更 清楚 地 看 上 
一 数据 集 上 ,ARACOQ 算法 比 启发 式 算法 具有 更 高 的 分 类 精度 
且 分 类 总 代价 相差 不 大 。 ARACOQ 算法 的 分 类 总 代价 控制 在 
这 个 是 通过 人 工 设 定 的 ， 可 以 设 
此 ， 在 实际 问题 中 ， 具 有 上 比 启发 


一 化 的 平均 


全 属性 集 


. 
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图 1 归 一 化 平均 总 分 类 代价 
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WPBC Spambase 


四 全 属性 集 


启发 式 算法 日 算法 1 


下 全 属性 集 


图 2 分 类 的 平均 精度 


WPBC | 
启发 式 算法 算法 1 


图 3 归 一 


化 属性 集 个 数 


了 可 承受 的 分 类 代价 范围 内 ， 


置 为 总 分 类 代价 的 10% 等 。 因 


式 算 法 更 强 的 适用 性 。 
从 图 2 和 3 


最 优 属 性 和 


与 全 属性 集 相 比 ， 


低 了 分 类 总 代价 总 和 并 且 分 类 精度 相差 不 大 。 


综 上 上 月 
出 分 类 精 


有 述 ，ARACOQ 算法 能 够 在 一 


度 较 高 的 最 优 测试 属性 集 。 


nt 


的 情况 下 ? 
证 


总 测试 代价 
展示 ) 、 分 


中 可 以 直观 地 观察 到 ，ARACOQ 算法 得 出 的 
属性 个 数 大 幅度 地 下 降 ， 大 大 降 


bh， 在 同 


定 承 受 代价 


加 


与 全 属性 


疏 相 比 ， 


幅度 地 减少 。 与 启发 式 算法 相 比 ,ARACOQ 算法 得 到 的 最 优 属 
性 集 分 类 正确 度 大 幅度 提高 ， 具 有 非常 重大 的 现实 意义 。 


5 ”结束 语 


在 决策 粗糙 集 属性 约 简 中 ， 传 统 方法 以 近似 分 类 质量 作为 
衡量 的 标准 ,没有 考虑 分 类 代价 , 从 而 可 能 导致 分 类 代价 过 高 
而 一 些 算法 以 分 类 代价 作为 优化 的 目标 ， 追 求 代价 最 小 化 从 而 
会 导致 分 类 精度 不 高 。 

忆 此 ， 本 文 综合 考虑 分 类 精度 和 分 类 总 代价 之 间 的 平衡 ， 
提出 了 一 种 基于 分 类 总 代价 和 近似 分 类 质量 的 决策 粗糙 集 属性 
约 简 方法 。 该 方法 通过 模拟 退火 算法 随机 找到 一 组 分 类 总 代价 
在 可 承受 范围 内 的 属性 集 ， 再 通过 比较 近似 分 类 质量 ， 找 到 最 
人 包 属 性 集 ， 使 得 分 类 结果 兼 具 分 类 总 代价 适中 且 分 类 精度 较 高 
的 特性 。 实 验 结果 表明 本 文 提 出 的 算法 是 有 效 的 。 

在 要 求 高 精度 的 实际 问题 , 如 临床 诊断 中 , 使 用 ARACOQ 
算法 能 够 有 效 的 删 减 检查 项 目 数 ， 节 约 诊断 成 本 ， 并 且 确 保 较 
高 精度 的 诊断 结果 。 相 较 于 启发 式 算法 , ARACOQ 算法 时 间 复 
杂 较 高 ， 所 以 运行 时 间 方 面 明显 弱 于 启发 式 算法 。 并 且 
ARACOQ 算法 对 于 不 同 的 初始 值 , 得 到 的 最 优 属 性 集会 略 有 不 
， 分 类 总 代价 和 分 类 精度 也 会 相应 发 生 一 些 变化 。 因 此 ， 不 
j 初 始 值 在 同一 数据 集 上 的 变化 规律 和 如 何 确定 不 同 数据 集 的 
初始 值 将 成 为 下 一 步 的 讨论 重点 。 
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